查看原文
其他

三代组装软件简介

生信阿拉丁 生信阿拉丁 2022-05-16





三 代 组 装 软 件 简 介


前 言

之前给大家简单介绍了pacbio和nanopore测序平台的原理及特点(见Pacbio和Nanopore测序技术之拳王争霸),二者各有千秋,都可以用于基因组denovo测序。

在得到三代数据之后,要进行基因组denovo组装。基因组组装主要的算法有:

01

OLC:Overlap-Layout-Consensus算法,先查找全部序列的重叠区域(overlap),基于序列之间的重叠区域(overlap)获取全部序列的布局图(layout),形成一致性(consensus)序列。OLC是三代长序列组装的主流算法。


02

DBG:De-Bruijn graph算法,将序列打断为短的k-mer再进行构图,二代短序列组装软件多以此为主流算法。


表1列出了部分三代组装软件,以下给大家介绍几款常用的、在基因组文章中应用较多的组装软件。

表1: 常用的三代组装软件及网址链接
O:该软件可用于Nanopore数据组装,P:该软件可用于Pacbio数据组装;I:该软件可用于illumina数据组装


组 装 软 件 介 绍



 Canu



Canu(Koren et al., 2017)是发展较早,相对成熟的组装软件,前身是PBcR,基于OLC算法,可以进行Pacbio和nanopore的数据组装,整体流程如图1,包括三部分:

  • Correct(对原始下机reads进行纠错)

  • Trim(获得reads之间高质量的overlap区域)

  • Assemble(依据reads之间的overlap区域进行组装)

Canu纠错时一般会对高重复的Kmer给予较小的权重,避免在纠错中造成干扰,在组装过程中会避免对不同重复序列和单倍型的合并。

因此Canu纠错得到的序列准确性高,组装准确性高,组装的基因组往往会偏大。已发表的高质量基因组文章很多基于该软件进行组装,如睡莲,甘蔗、棉花等。

1特点运行速度慢(特别是在纠错步骤),但是组装准确性和连续性在部分基因组中表现良好;对于杂合度高的物种组装结果偏大,可能装出不同单倍型的杂合区域序列,可以通过去单体型鉴定软件鉴定出来,也可以进行单倍型组装。
2适用物种一般都可以使用,同时适用于微生物基因组,宏基因组组装(利用三代测序来研究宏基因组的初认知

图1. Canu组装流程




 Falcon



Falcon是pacbio官方推出的denovo组装软件,同样基于OLC算法。

Falcon通常选择一定深度的长reads作为seed,将短reads比对到这些长reads上进行错误校正和预组装,得到高质量的预组装序列(preads),基于高质量preads的寻找序列重叠信息,对这些重叠信息进行过滤并构图。

基于该软件组装发表的高质量基因组也很多,如玉米Mo17和SK基因组都使用Falcon进行组装。

1特点于杂合度高的物种组装结果偏大,后续可以借助Falcon-unzip和Falcon-phase进行单倍型组装。
2适用物种一般都可以使用,杂合度高的物种表现不错



图2. Falocn组装流程




 WTDBG



WTDBG(Ruan and Li, 2020)以DBG算法为基础开发了新的模糊布鲁因图算法,对reads计算Kmer的个数,把reads分成以256bp为一个单元分bin,bin之间进行比对构图,对于重复或杂合序列形成的模糊的bubble区进行合并,得到一致性序列。

WTDBG最大优势是运行速度快,内存占用小,可以不纠错直接组装,得到相对可靠的结果,也可以使用Canu纠错后进行组装,后者是比较推荐的一种方式。组装出的基因组连续性较高,可以实现超大型基因组的组装。基于该软件组装发表的基因组如对虾等。WTDGB2进行了进一步优化,组装的速度和结果表现更好。

1特点运行速度快,内存占用小,对于重复序列含量高和杂合度高的物种可能出现错误的碱基合并。
2适用物种一般用于简单的基因组,针对大型基因组数据量不能太大,该软件对数据量有限制。


图3. WTDBG组装算法




 SmartDenovo



SmartDenovo与WTDBG是由同一团队开发的组装软件,该软件没有原始数据校正步骤,可以使用原始reads进行组装,也可以在Canu纠错基础上组装pacbio和nanopore数据,在nanopore组装中用的比较多,效果也比较好。基于Canu纠错SmartDenovo组装番茄的nanopore数据表现不错,发表的基因组文章如番茄、高粱等。

1特点运行速度较WTDBG慢很多,组装准确性和连续性不错,目前已停止更新。
2适用物种一般都可以使用,对大型基因组速度慢,内存消耗高。





 Minimap/miniasm



miniasm(Li, 2016) 自身没有纠错步骤,通过比对Minimap(现在可以用Minimap2)寻找overlap,用miniasm组装,组装得到的基因组错误率相当于原始错误率,需要借助软件如racon进行纠错。也可以使用Canu纠错的数据进行组装。

该软件运行速度比较快,在nanopore测序数据中有不少研究者使用该软件进行基因组组装。


结 语

以上给大家简单介绍了常用的三代组装软件。各个软件的组装连续性、准确性及资源消耗等方面的对比可以参考文献(Jayakumar and Sakakibara, 2019)中测评。其他软件如MECAT等也在不断优化,在此不一一介绍。

每款软件各自有优缺点,Canu和Falcon是认可度最高的软件,准确性和连续性较好,文献引用量也最大,WTDBG速度最快。多个软件也可以结合使用发挥各自优势,比如Canu纠错,用其他软件进行组装。目前安诺已联合阿里云对Canu进行了优化,组装周期减少的同时保持了原有的组装指标,以后大型基因组也可以用Canu进行组装了。

随着pacbio通量提高,高质量的HiFi reads越来越多的用到基因组denovo组装中,随之也有很多软件开发应用到CCS数据组装中。针对上述提到的常用软件及CCS数据的组装软件,后续会进行详细的应用方面的讲解。欢迎围观、学习~


参考文献:

Jayakumar, V., and Sakakibara, Y. (2019). Comprehensive evaluation of non-hybrid genome assembly tools for third-generation PacBio long-read sequence data. Brief Bioinform 20, 866-876.
Koren, S., Walenz, B.P., Berlin, K., Miller, J.R., Bergman, N.H., and Phillippy, A.M. (2017). Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. Genome Res 27, 722-736.
Li, H. (2016). Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences. Bioinformatics 32, 2103-2110.
Ruan, J., and Li, H. (2020). Fast and accurate long-read assembly with wtdbg2. Nat Methods 17, 155-158.

作者:May

审稿:童蒙

编辑:angelica




往期精选



围观

如何利用NR库快速进行物种鉴定?


热文

医学家系研究套路深!


热文

如何拆分pacbio的数据


热文

如何用matplotlib绘制图片


热文

超快组装软件的使用--hifiasm软件


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存